Sự Thay Đổi Mô Hình: Từ Các Mô Hình Đặc Trưng Cho Nhiệm Vụ Đến Các Mô Hình Ngôn Ngữ Lớn (LLMs)

Sự Tiến Hóa của Xử Lý Ngôn Ngữ Tự Nhiên: Từ AI Phân Mảnh Đến Các Mô Hình Cơ Bản

Định Nghĩa

AI Phân Mảnh: Một thời kỳ được đặc trưng bởi các kiến trúc thần kinh rời rạc, chuyên biệt, được thiết kế riêng cho từng nhiệm vụ như gán nhãn chuỗi hoặc phân loại.
Mô Hình Cơ Bản: Một kiến trúc transformer thống nhất, đơn thể, coi mọi vấn đề ngôn ngữ là một chuỗi văn bản đầu vào - đầu ra sinh tạo $x \rightarrow y$.

Các Khái Niệm Chính

Tập Trung Kiến Trúc: Trước đây, xử lý ngôn ngữ tự nhiên (NLP) đòi hỏi các quy trình tùy chỉnh (Bi-LSTM cho NER, CNN cho cảm xúc). Các mô hình ngôn ngữ lớn (LLM) thu gọn những khu vực tách biệt này thành một nền tảng duy nhất, nơi cùng một trọng số được sử dụng cho mọi nhiệm vụ.
Giao Diện Tổng Thể: Các mô hình ngôn ngữ lớn (LLM) thay thế các đầu ra chuyên biệt (ví dụ: Softmax 3 lớp) bằng một giao diện ngôn ngữ tự nhiên. Đầu vào và đầu ra luôn là chuỗi ký tự, cho phép mô hình hiểu được ý định thay vì định dạng.
Chuyển Giao Tri Thức: Các mô hình truyền thống là "trang giấy trắng" cho mỗi nhiệm vụ. Các mô hình ngôn ngữ lớn (LLM) ưu tiên Tổng Quát Hóa Trước Tiên, trong đó các nhiệm vụ cụ thể chỉ là ứng dụng của một biểu diễn nội bộ vững chắc về ngôn ngữ đã tồn tại trước đó.

Bối Cảnh Lịch Sử

Trước năm 2018: Việc cô lập nhiệm vụ đòi hỏi phải huấn luyện các mô hình khác nhau với các hàm tổn thất $\mathcal{L}_{task}$ khác nhau.
Thời Đại Hiện Đại: Triết lý "Văn bản đến Văn bản" cho phép một mô hình duy nhất (ví dụ: Llama-3) chuyển đổi nhiệm vụ thông qua việc gợi ý không có mẫu (zero-shot) hoặc ít mẫu (few-shot).

So Sánh Thực Thi Bằng Python

Trường Hợp Nghiên Cứu: Nhà Phát Triển Năm 2018 So Với Hiện Đại

Đọc tình huống bên dưới và trả lời các câu hỏi.

Một nhà phát triển cần xây dựng một trợ lý trò chuyện nhận diện tên người dùng (NER) và phát hiện cơn giận dữ (Cảm Xúc). So sánh Cách Tiếp Cận Truyền Thống (hai mô hình, hai tập huấn luyện, hai đường dẫn triển khai) với Cách Tiếp Cận Mô Hình Cơ Bản (một mô hình như Llama-3, hai lời nhắc hệ thống).

Câu

1. Sự khác biệt chính về Gánh Nặng Kiến Trúc giữa hai cách tiếp cận là gì?

Câu Trả Lời:
Cách tiếp cận truyền thống yêu cầu lưu trữ và duy trì nhiều mô hình riêng biệt trong bộ nhớ, trong khi cách tiếp cận LLM chỉ yêu cầu lưu trữ một mô hình đơn thể duy nhất xử lý cả hai nhiệm vụ.

Câu

2. Yêu cầu Dữ Liệu khác nhau như thế nào khi thêm một nhiệm vụ mới (ví dụ: Dịch Thuật)?

Câu Trả Lời:
Truyền thống, việc thêm Dịch Thuật sẽ yêu cầu một bộ sưu tập song song khổng lồ để huấn luyện một mô hình mới từ đầu. Với một LLM, nó có thể chỉ cần một vài lời nhắc hoặc hướng dẫn không có mẫu, tận dụng tri thức sẵn có của nó.

Câu

3. Trong cách tiếp cận LLM, mô hình biết thực hiện nhiệm vụ nào như thế nào?

Câu Trả Lời:
Thông qua lời nhắc ngôn ngữ tự nhiên được cung cấp tại thời điểm suy luận, đóng vai trò như giao diện thống nhất để hướng dẫn đầu ra sinh tạo của mô hình.